1
El panorama de la IA generativa avanzada
PolyU COMP5511Lesson 11
00:00

El panorama de IA generativa avanzada ha evolucionado desde modelos aislados y monolíticos hacia un ecosistema multicapa definido por Sistemas de IA compuestos. Este cambio se aleja de la predicción probabilística simple de tokens hacia sistemas que orquestan modelos fundamentales (FMs), complementos modulares y síntesis multimodal.

Infraestructura de cómputo / NubeLLMsDifusiónAudio / CódigoCapa de orquestación y agente

Taxonomía de la pila generativa

  • Capa de infraestructura: La estructura física (GPUs/TPUs) y los servicios en la nube que proporcionan el poder de cómputo masivo necesario para el entrenamiento y la inferencia de alta velocidad.
  • Capa de modelo: Los Modelos Fundamentales (FMs) como GPT-4, Llama 3 y Stable Diffusion que actúan como motores especializados para diferentes modalidades.
  • Capa de orquestación: Marcos que gestionan la lógica, el flujo de datos y la recuperación, haciendo que los modelos pasen de pesos "congelados" a sistemas con Conciencia contextual en tiempo real.

Convergencia de modalidades

La tendencia técnica se centra en unificar arquitecturas—principalmente modelos Transformers y de Difusión—permitiendo un espacio latente compartido. Esto permite una interfaz unificada donde el texto, la imagen y el video se manipulan como un flujo continuo de información, representado matemáticamente como un mapeo entre manifolds latentes distintos $M_{text} \leftrightarrow M_{visual}$.

Evolution estructural
Estamos pasando de modelos "de libro cerrado" que dependen únicamente de los parámetros de datos de entrenamiento $\theta$, a sistemas "de libro abierto" que utilizan el estado del entorno externo $E$ para resolver tareas complejas de razonamiento mediante $P(y|x, E)$.
Implementación en Python